Pandas の概要
Pandas はデータ分析やディープラーニングなどでよく使用される Pyton の拡張モジュールです。
次のような機能を提供しています。
カスタマイズされたインデックスを使用した、高速で効率的なDataFrameオブジェクト
さまざまなファイル形式とのデータの読み書きをするためのツール
データの調整と欠落データの統合処理
日付セットの再形成とピボット
大規模なデータセットのラベルベースのスライス、インデックス作成、サブセット化
データ構造の列は削除または挿入
集計と変換のためにデータでグループ化
データの高性能なマージと結合。
時系列データの処理
データの可視化プロット(可視化モジュールmatplotlibを利用)
Jupyter Notebook との高い親和性
Pandas のデータ構造
pandasのデータ構造には2つのもにがあります。
Series:リストのような1次元データ
DataFrame:表のような2次元データ
これらのデータを加工や結合、抽出などの処理する多数の関数やメソッドが提供されています。
また、pandasはCSVやJSONなどの多くのファイルフォーマットからデータを読み込んだり、データベースからデータを取り込んで、DataFrameに変換することができます。
また、DataFrame をさまざまなフォーマットで出力することもできます。’
インストール
拡張モジュールなので次のようにインストールします。
code: bash condaの場合
$ conda install pandas
code: bash pipの場合
$ pip install pandas
Pandas の利用方法
Pandas を利用するためには、次のようにインポートします。
code: python
import numpy as np
import pandas as pd
ここで、as xx で別名にしています。xxには予約語以外は自由になるのですが、この組み合わせが、ほとんどです。